Trabalho Computacional 4 - Teste de Hipóteses

Pedro Henrique Corrêa de Almeida

Exercício 1

1.1

Seja \(X\) ~ \(N(\mu_1, \sigma^2_1)\) a variável referente ao índice de placa bacteriana de crianças antes da utilização de uma escova convencional, e, \(Y\) ~\(N(\mu_2, \sigma^2_2)\) o indíce de placa dessas mesmas crianças depois da escovação. Dessa forma, seja uma amostra aleatória de \(n\) indivíduos \((X_1, Y_1), ..., (X_n, Y_n)\) , onde cada par \((X_i, Y_i)\) diz respeito a um indivíduo.

Estamos interessados em testar, para o nível de significância de \(5\)%, se os índices médios de placa bacteriana antes e depois da escovação são iguais, logo temos as seguintes hipóteses:

\[ H_0:\mu_1 = \mu_2\\ H_1:\mu_1 \neq \mu_2 \]

Sabemos que:

\[ W = Y - X \sim N(\mu_2 - \mu_1, \sigma^2_1+\sigma^2_2)\\ \frac{W - (\mu_2-\mu_1)}{\sqrt{\sigma^2_1+\sigma^2_2}} \sim N(0, 1)\\ T_0 = \frac{\bar{W} - \Delta_0}{\sqrt{\frac{S_w^2}{n}}} \sim t_{n-1} \]

Logo, vamos utilizar um teste-t pareado a fim de testar nossas hipóteses.

Segue a amostra de 26 crianças que vamos utilizar para testar nossa hipótese:

Sujeito Antes Depois diferenca
1 1.20 0.75 -0.45
2 1.43 0.55 -0.88
3 0.68 0.08 -0.60
4 1.45 0.75 -0.70
5 0.50 0.05 -0.45
6 2.75 1.60 -1.15
7 1.25 0.65 -0.60
8 0.40 0.13 -0.27
9 1.18 0.83 -0.35
10 1.43 0.58 -0.85
11 0.45 0.38 -0.07
12 1.60 0.63 -0.97
13 0.25 0.25 0.00
14 2.98 1.03 -1.95
15 3.35 1.58 -1.77
16 1.50 0.20 -1.30
17 4.08 1.88 -2.20
18 3.15 2.00 -1.15
19 0.90 0.25 -0.65
20 1.78 0.18 -1.60
21 3.50 0.85 -2.65
22 2.50 1.15 -1.35
23 2.18 0.93 -1.25
24 2.68 1.05 -1.63
25 2.73 0.85 -1.88
26 3.43 0.88 -2.55

testeEscova = t.test(dadosConvencional$Depois, dadosConvencional$Antes, 
                     paired = TRUE, conf.level = 0.95)
Valor
statistic.t -7.81273261294089
parameter.df 25
p.value 3.60887167266193e-08
conf.int1 -1.42253673160911
conf.int2 -0.829001729929356
estimate.mean difference -1.12576923076923
null.value.mean difference 0
stderr 0.144094171212838
alternative two.sided
method Paired t-test
data.name dadosConvencional\(Depois and dadosConvencional\)Antes

Logo, como o intervalo não contém o valor 0, nós rejeitamos, com \(5\)% de significância, a hipótese nula, e, concluímos que a escovação fez efeito nos índices médios de placa bacteriana.

Além disso temos que a média dos índices depois da escovação são menores que antes da escovação.

1.2

Agora, seja \(V \sim N(\mu_3, \sigma^2_3)\) a variável do índice de placa bacteriana das mesmas crianças referentes a \(X\) e \(Y\), após a utilização de uma escovação com uma escova da marca Hugger. Temos \(V_1, …, V_n\) uma amostra aleatória de \(V\)

Vamos testar para o nível de significância de \(5\)%, se os índices médios de placa bacteriana depois da escovação diferem em relação à escova utilizada, ou seja:

\[ H_0: \mu_2 = \mu_3 \\ H_1: \mu_2 \neq \mu_3 \]

Sabemos que:

\[ D = V - Y \sim N(\mu_3 - \mu_2, \sigma^2_3+\sigma^2_2)\\ \frac{D - (\mu_3-\mu_2)}{\sqrt{\sigma^2_3+\sigma^2_2}} \sim N(0, 1)\\ T_0 = \frac{\bar{D} - \Delta_0}{\sqrt{\frac{S_d^2}{n}}} \sim t_{n-1} \]

Logo, vamos utilizar um teste-t pareado a fim de testar nossas hipóteses.

Segue a mesma amostra das 26 crianças, porém com os dados da esscova Hugger:

Sujeito Sexo Tratamento Escova Indice
1 F Antes Hugger 2.18
1 F Depois Hugger 0.43
1 F Antes Convencional 1.20
1 F Depois Convencional 0.75
2 F Antes Hugger 2.05
2 F Depois Hugger 0.08
2 F Antes Convencional 1.43
2 F Depois Convencional 0.55
3 F Antes Hugger 1.05
3 F Depois Hugger 0.18
3 F Antes Convencional 0.68
3 F Depois Convencional 0.08
4 F Antes Hugger 1.95
4 F Depois Hugger 0.78
4 F Antes Convencional 1.45
4 F Depois Convencional 0.75
5 F Antes Hugger 0.28
5 F Depois Hugger 0.03
5 F Antes Convencional 0.50
5 F Depois Convencional 0.05
6 F Antes Hugger 2.63
6 F Depois Hugger 0.23
6 F Antes Convencional 2.75
6 F Depois Convencional 1.60
7 F Antes Hugger 1.50
7 F Depois Hugger 0.20
7 F Antes Convencional 1.25
7 F Depois Convencional 0.65
8 F Antes Hugger 0.45
8 F Depois Hugger 0.00
8 F Antes Convencional 0.40
8 F Depois Convencional 0.13
9 F Antes Hugger 0.70
9 F Depois Hugger 0.05
9 F Antes Convencional 1.18
9 F Depois Convencional 0.83
10 F Antes Hugger 1.30
10 F Depois Hugger 0.30
10 F Antes Convencional 1.43
10 F Depois Convencional 0.58
11 F Antes Hugger 1.25
11 F Depois Hugger 0.33
11 F Antes Convencional 0.45
11 F Depois Convencional 0.38
12 F Antes Hugger 0.18
12 F Depois Hugger 0.00
12 F Antes Convencional 1.60
12 F Depois Convencional 0.63
13 F Antes Hugger 3.30
13 F Depois Hugger 0.90
13 F Antes Convencional 0.25
13 F Depois Convencional 0.25
14 F Antes Hugger 1.40
14 F Depois Hugger 0.24
14 F Antes Convencional 2.98
14 F Depois Convencional 1.03
15 M Antes Hugger 0.90
15 M Depois Hugger 0.15
15 M Antes Convencional 3.35
15 M Depois Convencional 1.58
16 M Antes Hugger 0.58
16 M Depois Hugger 0.10
16 M Antes Convencional 1.50
16 M Depois Convencional 0.20
17 M Antes Hugger 2.50
17 M Depois Hugger 0.33
17 M Antes Convencional 4.08
17 M Depois Convencional 1.88
18 M Antes Hugger 2.25
18 M Depois Hugger 0.33
18 M Antes Convencional 3.15
18 M Depois Convencional 2.00
19 M Antes Hugger 1.53
19 M Depois Hugger 0.53
19 M Antes Convencional 0.90
19 M Depois Convencional 0.25
20 M Antes Hugger 1.43
20 M Depois Hugger 0.43
20 M Antes Convencional 1.78
20 M Depois Convencional 0.18
21 M Antes Hugger 3.48
21 M Depois Hugger 0.65
21 M Antes Convencional 3.50
21 M Depois Convencional 0.85
22 M Antes Hugger 1.80
22 M Depois Hugger 0.20
22 M Antes Convencional 2.50
22 M Depois Convencional 1.15
23 M Antes Hugger 1.50
23 M Depois Hugger 0.25
23 M Antes Convencional 2.18
23 M Depois Convencional 0.93
24 M Antes Hugger 2.55
24 M Depois Hugger 0.15
24 M Antes Convencional 2.68
24 M Depois Convencional 1.05
25 M Antes Hugger 1.30
25 M Depois Hugger 0.05
25 M Antes Convencional 2.73
25 M Depois Convencional 0.85
26 M Antes Hugger 2.65
26 M Depois Hugger 0.25
26 M Antes Convencional 3.43
26 M Depois Convencional 0.88

testeDepois = t.test(dadosPlaca$Depois_Hugger, dadosPlaca$Depois_Convencional,
                     paired = TRUE, alternative = "two.sided", conf.level = 0.95)
Valor
statistic.t -4.25787808389548
parameter.df 25
p.value 0.000254898778291413
conf.int1 -0.73557314810073
conf.int2 -0.255965313437731
estimate.mean difference -0.495769230769231
null.value.mean difference 0
stderr 0.116435750625264
alternative two.sided
method Paired t-test
data.name dadosPlaca\(Depois_Hugger and dadosPlaca\)Depois_Convencional

Logo, uma vez que o Valor-p é maior que \(0,05\), rejeitamos a hipótese nula com \(5\)% de significância, e, concluímos que o tipo de escova faz diferença nos índices de placa bacteriana.

Além disso a escova da marca Hugger obteve menores índices após o uso.

Exercício 2

2.1

Sejam \(X \sim N(\mu_1, \sigma^2_1)\), a variável referente as notas dos alunos da turma F e \(Y \sim N(\mu_2, \sigma_2^2)\) a variável referente as notas dos alunos da turma G. Vamos testar se há diferenças das notas em relação a turma F e G, logo, temos as hipóteses:

\[ H_0: \mu_1 = \mu_2\\ H_1: \mu_1 \neq \mu_2 \]

Segue a amostra com as notas das turmas G e F:

Turma Nota Genero
F 61 F
F 21 M
F 84 M
F 89 M
F 66 F
F 22 M
F 60 M
F 90 M
F 32 M
F 70 M
F 89 M
F 47 F
F 61 M
F 88 F
F 60 F
F 60 M
F 79 F
F 60 M
F 64 M
F 70 M
F 65 M
F 65 F
F 61 M
F 82 M
F 53 M
F 79 M
F 50 M
F 78 F
F 66 M
F 83 F
F 60 F
F 62 M
F 65 M
F 60 M
F 61 F
F 62 F
F 76 M
F 38 M
F 72 M
F 64 M
F 25 M
F 53 M
G 60 F
G 56 M
G 71 M
G 66 F
G 60 M
G 69 M
G 53 M
G 39 F
G 64 F
G 39 F
G 78 M
G 66 M
G 55 F
G 88 M
G 46 F
G 62 M
G 60 M
G 60 M
G 44 F
G 72 M
G 54 M
G 60 M
G 85 F
G 84 M
G 60 F
G 79 M
G 73 M
G 86 F
G 80 F
G 89 M
G 86 F
G 60 F
G 79 M
G 87 M
G 72 M
G 73 F
G 75 M
G 28 M
G 75 F
G 82 M
G 35 M
G 66 M
G 84 M
G 60 M
G 60 M
G 82 F
G 74 M
G 81 M
G 86 M
G 60 M

Primeiramente vamos testar se as variâncias de ambos os grupos são iguais ou não. Para isso vamos utilizar um teste \(F\), resultado pela razão de duas \(\chi^2\). Nesse contexto nossas hipóteses serão:

\[ H_0: \frac{\sigma^2_1}{\sigma^2_2} = 1\\ H_1: \frac{\sigma^2_1}{\sigma^2_2} \neq 1 \]

Além disso vamos utilizar um nível de significância \(\alpha=0,05\).

testeVarTurmas = var.test(notasProb$`Probabilidade - Turma G`, notasProb$`Probabilidade - Turma F`,
                          alternative = "two.sided", conf.level = 0.95)
Valor
statistic.F 0.760839340970416
parameter.num df 49
parameter.denom df 41
p.value 0.357963256759763
conf.int1 0.416641645194881
conf.int2 1.36754010235396
estimate.ratio of variances 0.760839340970416
null.value.ratio of variances 1
alternative two.sided
method F test to compare two variances
data.name notasProb\(`Probabilidade - Turma G` and notasProb\)Probabilidade - Turma F

Uma vez que o Valor-p é maior que \(0,05\) não temos evidências suficientes para rejeitarmos a hipótese nula e vamos realizar o teste t com variâncias iguais.

Uma vez que vamos considerar as variâncias iguais, sabemos:

\[ \frac{\bar{X} - \bar{Y} - (\mu_1 - \mu_2)}{\sqrt{S^2_p(\frac{1}{n} + \frac{1}{m})}} \sim t_{n+m-2} \]

Onde:

\[ S^2_p = \frac{(n-1)S^2_1+(m-1)S^2_2}{n+m-2} \]

igualTurmas = testeVarTurmas$p.value >= 0.05

testeTurmas = t.test(notasProb$`Probabilidade - Turma F`,
       notasProb$`Probabilidade - Turma G`,
       na.rm = T, var.equal = igualTurmas)
Valor
statistic.t -1.21582691099905
parameter.df 90
p.value 0.227230343510452
conf.int1 -10.7818850065853
conf.int2 2.59521833991861
estimate.mean of x 63.1666666666667
estimate.mean of y 67.26
null.value.difference in means 0
stderr 3.36670729715123
alternative two.sided
method Two Sample t-test
data.name notasProb\(`Probabilidade - Turma F` and notasProb\)Probabilidade - Turma G

Novamente, o Valor-p é maior que \(0,05\), logo não temos evidências suficientes para rejeitarmos a hipótese nula, dessa forma não podemos afirmar que as notas médias das duas turmas são diferentes, vamos verificar o gráfico da região crítica e a estatística do teste encontrada.

plota_regiao_rej(dt, qt, testeTurmas$statistic, list(df = 90))

2.2

Dessa vez, vamos realizar estmoas interessados em verificar se há diferença das notas em relação ao gênero Para isso vamos considerar apenas os alunos da turma G e comparar os dois grupos separados em homens e mulheres.

Sejam \(U \sim N(\mu_3, \sigma_3^2)\) e \(V \sim N(\mu_4, \sigma_4^2)\) as variáveis das notas dos alunos homens e mulheres, respectivamente, da turma G. Vamos realizar o seguinte teste:

\[ H_0: \mu_3 = \mu_4\\ H_1: \mu_3 \neq \mu_4 \]

Turma Nota Genero
G 60 F
G 56 M
G 71 M
G 66 F
G 60 M
G 69 M
G 53 M
G 39 F
G 64 F
G 39 F
G 78 M
G 66 M
G 55 F
G 88 M
G 46 F
G 62 M
G 60 M
G 60 M
G 44 F
G 72 M
G 54 M
G 60 M
G 85 F
G 84 M
G 60 F
G 79 M
G 73 M
G 86 F
G 80 F
G 89 M
G 86 F
G 60 F
G 79 M
G 87 M
G 72 M
G 73 F
G 75 M
G 28 M
G 75 F
G 82 M
G 35 M
G 66 M
G 84 M
G 60 M
G 60 M
G 82 F
G 74 M
G 81 M
G 86 M
G 60 M
Estatística Mulheres Turma G
Min. 1st Qu. Median Mean 3rd Qu. Max.
39 55 64 64.70588 80 86
Estatística Homens Turma G
Min. 1st Qu. Median Mean 3rd Qu. Max.
28 60 71 68.57576 79 89

testeVarTurmaG = var.test(notasGM, notasGF,
                          alternative = "two.sided", conf.level = 0.95)
Valor
statistic.F 0.77305223597152
parameter.num df 32
parameter.denom df 16
p.value 0.51949187425987
conf.int1 0.30277996903383
conf.int2 1.73783160207509
estimate.ratio of variances 0.77305223597152
null.value.ratio of variances 1
alternative two.sided
method F test to compare two variances
data.name notasGM and notasGF

Uma vez que o Valor-p é maior que \(0,05\), não temos evidências suficientes para rejeitarmos a hipótese nula, e, dessa forma vamos realizar o teste t com variâncias iguais.

Uma vez que vamos considerar as variâncias iguais, sabemos:

\[ \frac{\bar{U} - \bar{V} - (\mu_3 - \mu_4)}{\sqrt{S^2_p(\frac{1}{n} + \frac{1}{m})}} \sim t_{n+m-2} \]

Onde:

\[ S^2_p = \frac{(n-1)S^2_3+(m-1)S^2_4}{n+m-2} \]

igualTurmaG = testeVarTurmaG$p.value >= 0.05
testeTurmaG = t.test(notasGM, notasGF, var.equal = igualTurmaG)
Valor
statistic.t 0.85935196529496
parameter.df 48
p.value 0.394417920649391
conf.int1 -5.18451220503198
conf.int2 12.9242626506648
estimate.mean of x 68.5757575757576
estimate.mean of y 64.7058823529412
null.value.difference in means 0
stderr 4.50324823716221
alternative two.sided
method Two Sample t-test
data.name notasGM and notasGF
plota_regiao_rej(dt, qt, testeTurmaG$statistic, list(df = 48))

Logo, uma vez que o a estatística de teste está fora da área de rejeição, rejeitamos a hipótese nula com \(5\)% de significância, e, concluímos que não temos evidências suficientes para afirmar que a média das notas turma G depende em relação ao gênero.